Système d'Intelligence des Brevets USPTO
Un pipeline NLP spécialisé pour la génération automatisée de leads B2B.
J'ai conçu et construit ce système pour un client basé aux États-Unis qui avait besoin d'identifier des types spécifiques d'inventeurs et de cessionnaires parmi le flux quotidien de dépôts de brevets de l'USPTO. L'objectif était de remplacer la recherche manuelle par un agent IA autonome qui fournit des leads qualifiés.
🧠 Architecture IA & NLP
Le défi principal était de classifier avec précision des documents de brevets de niche où les données d'entraînement étaient rares.
- Apprentissage Few-Shot avec SetFit : Au lieu d'utiliser un LLM lourd et générique, j'ai affiné un modèle SetFit (Sentence Transformer Fine-tuning). Cela a permis une classification de texte de haute précision avec un minimum d'exemples étiquetés, rendant le système à la fois efficace et précis.
- Filtrage Sémantique : Le modèle analyse les résumés et les revendications de brevets pour distinguer les "opportunités commerciales pertinentes" du bruit, surpassant largement la recherche par mots-clés.
⚙️ Le flux de travail automatisé
- Ingestion : Le système surveille les flux de données en temps réel de l'Office des brevets et des marques des États-Unis (USPTO).
- Classification : Les nouveaux dépôts passent par le moteur d'inférence SetFit pour la catégorisation.
- Enrichissement des données : Lorsqu'un lead à haute confiance est identifié, le système déclenche un flux de scraping pour enrichir les données, trouvant les coordonnées des inventeurs ou des avocats déposants.
- Livraison : Les leads qualifiés et enrichis sont poussés vers le CRM/Tableau de bord du client.
💻 Stack Technique
- IA/NLP : Hugging Face, SetFit, Sentence Transformers, PyTorch
- Backend : Python, Pipelines ETL
- Données : Données ouvertes USPTO, Web Scraping
